Идентификация слов текста

Идентификация слов текста

7.5. Идентификация слов текста

7.5.1. Процесс идентификации слов текста должен включать: отождествление словоформ одного слова и определение информативных слов текста.

При этом может быть необходимо использование интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических конструкций, выявление и разрешение омонимии.

7.5.2. Для идентификации слов текста используют машинные словари (словари основ, парадигм, словосочетаний и т.д.). Словари должны быть представлены в базе данных системы и обеспечены средствами визуализации и ведения.

7.6. Формирование списка ключевых слов текста

7.6.1. В процессе формирования списка ключевых слов текста проводится синтаксический анализ текста с учетом правил сочетаемости грамматических категорий данного естественного языка.

7.6.2. Синтаксический анализ текста решает задачи:

1) разделение текста на фрагменты по заданным критериям;

2) установление синтаксических зависимостей между словоформами текста;

3) отождествление словосочетаний;

4) нормализация выявленных ключевых слов.

7.7. Автоматическое формирование ПОД

7.7.1. В процедуре AИ допускается формирование ПОД из свободных ключевых слов или дескрипторов информационно-поискового тезауруса, используемого в данной области.

7.7.2. При АИ дескрипторами информационно-поискового тезауруса на этапе формирования ПОД происходит замена ключевых слов на дескрипторы, указанные в тезаурусе.

7.7.3. При формировании ПОД из дескрипторов возможно обогащение ПОД за счет пополнения вышестоящими терминами информационно-поискового тезауруса.

7.7.4. Процедура АИ должна предусматривать включение в ПОД типовых грамматических средств (см. разд. 5).

7.7.5. К системам АИ предъявляются следующие требования:

1) модульность построения, т.е. такая внутренняя организация лингвистического и программного обеспечения системы при которой процедуры решения отдельных задач АИ реализуются с помощью самостоятельных блоков или модулей;

2) ориентация на типовые программные и технические средства;

3) соответствие действующей нормативно-методической документации по координатному индексированию.


Словарь-справочник терминов нормативно-технической документации. . 2015.

Игры ⚽ Поможем написать курсовую

Полезное


Смотреть что такое "Идентификация слов текста" в других словарях:

  • идентификация — 4.15 идентификация (identification): Процесс последовательного сопоставления полученного изображения лица со множеством изображений лиц для обнаружения похожего изображения; сопоставление 1:N («один ко многим»). Источник …   Словарь-справочник терминов нормативно-технической документации

  • Графическая идентификация —         в криминалистике, отождествление личности по письму (почерку), т. е. установление исполнителя (автора) путём сравнительного исследования признаков почерка, отобразившихся в документе, исполнитель которого неизвестен, и признаков почерка,… …   Большая советская энциклопедия

  • ГОСТ 7.66-92: Система стандартов по информации, библиотечному и издательскому делу. Индексирование документов. Общие требования к координатному индексированию — Терминология ГОСТ 7.66 92: Система стандартов по информации, библиотечному и издательскому делу. Индексирование документов. Общие требования к координатному индексированию оригинал документа: 1. Автоматизированное индексирование индексирование,… …   Словарь-справочник терминов нормативно-технической документации

  • ИЕЗЕКИИЛЯ ПРОРОКА КНИГА — входит в состав ВЗ (относится к т. н. великим пророкам). Автором традиционно признается прор. Иезекииль. Текст Еврейская традиция По утверждению мн. комментаторов, евр. текст И. п. к. один из самых плохо сохранившихся. Как считал Р. Сменд, И. п.… …   Православная энциклопедия

  • ЕВАНГЕЛИЕ. ЧАСТЬ II — Язык Евангелий Проблема новозаветного греческого Дошедшие до нас оригинальные тексты НЗ написаны на древнегреч. языке (см. ст. Греческий язык); существующие версии на др. языках это переводы с греческого (или с др. переводов; о переводах… …   Православная энциклопедия

  • область — 3.1 область (area): Трехмерная область или пространство. Источник …   Словарь-справочник терминов нормативно-технической документации

  • ЕККЛЕСИАСТА КНИГА — [евр. , греч. ᾿Εκκλησιαστής; лат. Ecclesiastes], библейская книга; в христ. традиции входит в число учительных книг (см. в ст. Библия), в иудейском каноне в разд. «Писания» (агиографы). Наименование В евр. Библии книга названа именем… …   Православная энциклопедия

  • ДОБРОТОЛЮБИЕ — Господь Вседержитель с предстоящими свт. Макарием Нотарой и прп. Никодимом Святогорцем. Гравюра. 50 е гг. ХХ в. Господь Вседержитель с предстоящими свт. Макарием Нотарой и прп. Никодимом Святогорцем. Гравюра. 50 е гг. ХХ в. [греч. Θιλοκαλία],… …   Православная энциклопедия

  • Народная музыка —         музыкальный фольклор (англ. Folk music, нем. Volksmusik, Volkskunst, франц. Folklore musical) вок. (преим. песенное, т. е. муз. поэтическое), инстр., вок. инстр. и муз. танц. творчество народа (от первобытных охотников, рыболовов,… …   Музыкальная энциклопедия

  • структура — (framework): Логическая структура для классификации и организации сложной информации [3]. Источник: ГОСТ Р ИСО/ТС 18308 2008: Информатизация здоровья. Требования к архитектуре электронного учета здоровья 3.38 стру …   Словарь-справочник терминов нормативно-технической документации


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»